## Warning: package 'geojsonio' was built under R version 3.5.2
## Warning: package 'shape' was built under R version 3.5.2
## Warning: package 'kableExtra' was built under R version 3.5.2
## Warning: 9572 parsing failures.
## row col  expected    actual                     file
##   1  -- 6 columns 7 columns 'data/etablissement.csv'
##   2  -- 6 columns 7 columns 'data/etablissement.csv'
##   3  -- 6 columns 7 columns 'data/etablissement.csv'
##   4  -- 6 columns 7 columns 'data/etablissement.csv'
##   5  -- 6 columns 7 columns 'data/etablissement.csv'
## ... ... ......... ......... ........................
## See problems(...) for more details.
## Warning: 2 parsing failures.
##   row              col expected   actual             file
## 17174 classe_potentiel a double #VALEUR! 'data/radon.csv'
## 17183 classe_potentiel a double #VALEUR! 'data/radon.csv'

Introduction:

La fouille de données (data mining) permet de faire un lien entre les statistiques et les technologies de l’information (base de données, intelligence artificielle, apprentissage automatique (machine learning), utilisée pour la recherche d’informations dans les grandes bases de données médicales ou de santé. Les outils de collecte automatique des données et bases de données permettent de stocker dans des entrepôts d’énormes masses de données. La fouille de données et les entrepôts permettent l’extraction de connaissances.
L’utilisation de ces masses de données, issues de structures médicales, peut permettre d’acquérir de nouvelles connaissances via différents types d’études. Notamment avec le logiciel R.

Dans ce projet on est amenées à Construire un mini-entrepôt de données environnementales au format i2b2 Construire une application shiny pour explorer notre entrepôt de données Analysez la corrélation entre exposition environnementales et répartition des patients atteints de la maladie X par des méthodes de statistiques spatiales.

Description des données

Pour l’aboutissement de notre projet nous avons choisis deux jeux de données : -polluants par établissements avec localisation établissements qui se compose de 9572 observations et 6 variables et 14954 observations et 15 variables provenant du site : https://public.opendatasoft.com/explore/dataset/registre-francais-des-emission-polluantes-etablissements/table/ -Radon se compose de 36104 observations et 5 variables et provient du site : https://www.data.gouv.fr/fr/datasets/connaitre-le-potentiel-radon-de-ma-commune/

Le registre des rejets et des transferts de polluants (RRTP) est un inventaire national des substances chimiques et/ou des polluants potentiellement dangereux rejetés dans l’air, l’eau et le sol de la production et du traitement des déchets dangereux et non dangereux Les attributs de cette base sont :

##      nom            codeCommune         nomCommune       
##  Length:9572        Length:9572        Length:9572       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##       cp            designationAPE     designationEPRTR  
##  Length:9572        Length:9572        Length:9572       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character
##  Identifiant        Nom Etablissement  Numéro Siret      
##  Length:14954       Length:14954       Length:14954      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##    Adresse          Code Postal          Commune         
##  Length:14954       Length:14954       Length:14954      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##  Departement           Region          coordonnées_x     
##  Length:14954       Length:14954       Length:14954      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##  coordonnées_y        Code APE         Libellé APE       
##  Length:14954       Length:14954       Length:14954      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##   Code Eprtr        Libelle Eprtr      coordonnees       
##  Length:14954       Length:14954       Length:14954      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character

Le radon qui est un gaz radioactif produit par la désintégration naturelle de l’uranium présent dans les roches. Cancérigène pulmonaire, il présente un risque pour la santé lorsqu’il s’accumule dans les bâtiments. L’étude de jeux de données nous permet de voir le potentiel radon dans chaque commune, les attributs de cette base de données sont :

##    nom_comm           nom_dept          insee_com         classe_potentiel
##  Length:36096       Length:36096       Length:36096       Min.   :1.00    
##  Class :character   Class :character   Class :character   1st Qu.:1.00    
##  Mode  :character   Mode  :character   Mode  :character   Median :1.00    
##                                                           Mean   :1.45    
##                                                           3rd Qu.:2.00    
##                                                           Max.   :3.00    
##                                                           NA's   :2       
##      reg           
##  Length:36096      
##  Class :character  
##  Mode  :character  
##                    
##                    
##                    
## 

Création de l’entrepot de données:

Après avoir choisi les deux jeux de données, bien les analyser et étudier on est passé à l’étape de la construction de notre entrepôt de données à partir des deux jeux donnés Et cela au format i2b2 (Informatics for Integrating Biology & the Bedside) Donc la fouille de données qui consistait à analyser les jeux de données choisit nous a permis d’extraire des connaissances. Regrouper des techniques statistiques et ainsi pouvoir construire notre propre entrepôt de données. Les données de notre entrepôt au format i2b2 résident est décrite dans le schéma en étoile suivant qui est la structure de données la plus utilisée et la plus appropriée aux requêtes et analyses des utilisateurs d’entrepôts de données

A caption

A caption

Comme le décrit le schéma ci-dessus : La Table centrale « commune » qui contient les données observables les faits qui sont numérique et d’ordre quantitatif que l’on possède que l’on veut étudier (classe Radon, nombre établissement par département et commune …), selon divers axes d’analyse les dimensions qui sont les tables de dimensions (informations, localisation établissement, localisation, établissement polluant) selon lesquels on veut étudier les données observables (les faits).

1-Création de la base de données: On a créé la table Établissement qui est la jointure entre la table polluant Par Établissement et localisation Par Établissement Ensuite on a fait la jointure de la table crée et la table radon selon le Département.

Nom Etablissement Identifiant Numéro Siret Adresse Code Postal Commune Departement Region coordonnées_x coordonnées_y Code APE Libellé APE Code Eprtr Libelle Eprtr coordonnees lng lat
‘ONYX Auv. Rhône Alpes’‘Plateforme de production d’amendement Organique’’’ 056.01460 30259089800516 Champ Viollant 63260 AUBIAT PUY-DE-DOME AUVERGNE 667141.2 2109301.48 3821Z Traitement et élimination des déchets non dangereux 5.(c) Installations destinées à l’élimination des déchets non dangereux d’une capacité de 50 tonnes par jour 45.9806220489, 3.20302004009 45.98062 3.203020
‘Onyx Auvergne Rhône Alpes’‘Auvergne Déchets Spéciaux’’’ 056.00360 30259089800490 Rue François Arago ZI Sud 63360 GERZAT PUY-DE-DOME AUVERGNE 662577 2091585 3812Z Collecte des déchets dangereux 5.(a) Installations pour la valorisation ou l’élimination des déchets dangereux recevant 10 tonnes par jour 45.8216749812, 3.1417817053 45.82167 3.141782
.SYNTHEXIM 070.00882 41444299600024 .ZI des Dunes Rue des Mouettes 62100 CALAIS PAS-DE-CALAIS NORD-PAS-DE-CALAIS 569213.5892939 2663865.1717914 2110Z Fabrication de produits pharmaceutiques de base 4.(e) Installations utilisant un procédé chimique ou biologique pour la fabrication industrielle de produits pharmaceutiques de base 50.9670870286, 1.89935000532 50.96709 1.899350
1° RHC 090.00115 15400074900015 quartier LA HORIE Phalsbourg 57373 PHALSBOURG MOSELLE LORRAINE 957705 2430229 8422Z Défense NA NA 48.770838746, 7.20355174478 48.77084 7.203552
1000 PIECES AUTOS 062.06362 42159285800011 rue Jean Prouvé 57600 FORBACH MOSELLE LORRAINE 930809 2473458 4532Z Commerce de détail d’équipements automobiles 5.(a) Installations pour la valorisation ou l’élimination des déchets dangereux recevant 10 tonnes par jour 49.1730717207, 6.87233533978 49.17307 6.872335
12° base de soutien du matériel 090.00017 15000062800019 Route du camp 36100 NEUVY-PAILLOUX INDRE CENTRE 562585 2208900 8422Z Défense 2.(f) Installations de traitement de surface de métaux et des matières plastiques utilisant un procédé électrolytique ou chimique lorsque le volume des cuves affectées au traitement est égal à 30 m3 46.8789631151, 1.84564020341 46.87896 1.845640
12e BSMAT - Détachement de GIEN 090.00141 15000082600019 97 - avenue Wilson BP 70029 45501 GIEN Cedex 45500 GIEN LOIRET CENTRE 622133.567 2299665.309 8422Z Défense NA NA 47.6961111769, 2.63138874436 47.69611 2.631389
12ème Régiment de Cuirassiers 090.00259 13001364200017 Quartier Valmy BP 119 45161 OLIVET LOIRET CENTRE 565655.854 2313276.541 8422Z Défense NA NA 47.8179948595, 1.87792691809 47.81799 1.877927
13ème Base de Soutien du Matériel 090.00011 15400005300384 Rue de l’arsenal BP 20 63035 CLERMONT-FERRAND PUY-DE-DOME AUVERGNE 662000 2088600 8422Z Défense 2.(f) Installations de traitement de surface de métaux et des matières plastiques utilisant un procédé électrolytique ou chimique lorsque le volume des cuves affectées au traitement est égal à 30 m3 45.7948739418, 3.13396807135 45.79487 3.133968
13ème BSMAT - Détachement de Moulins 090.00254 15000065100011 Détachement de Moulins 57 - rue des Époux Contoux BP 74 03402 YZEURE ALLIER AUVERGNE 677503 2172031 8422Z Défense NA NA 46.5438436592, 3.34712959593 46.54384 3.347130
Table 1 : Etablissement Polluant ainsi que leur localisation
nom_dept nom_comm insee_com classe_potentiel reg Nom.Etablissement Identifiant Numéro.Siret Adresse Code.Postal Region coordonnées_x coordonnées_y Code.APE Libellé.APE Code.Eprtr Libelle.Eprtr coordonnees lat lng dep ratio nom_comm.1 insee_com.1 classe_potentiel.1 reg.1
ain amberieuenbugey 1004 2 FR COFIBEX 061.01975 43425026200012 ZI - avenue de la Libération 01502 RHONE-ALPES 833608 2110837 6420Z Activités des sociétés holding NA NA 45.9574744756, 5.35072592907 5.350726 45.95747 ain 3.29 montanges 1257 2 FR
ain anglefort 1010 1 FR FERROPEM - Usine d’Anglefort 061.01980 64200517700265 Route de la gare 01350 RHONE-ALPES 868107.39 2106979.01 2410Z Sidérurgie 2.(e).(i) destinées à la production de métaux bruts non ferreux à partir de minerais - de concentrés ou de matières premières secondaires par procédés métallurgiques - chimiques ou électrolytiques 45.9100235004, 5.7931381264 5.793138 45.91002 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR ARKEMA 061.12329 31963279000345 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2016Z Fabrication de matières plastiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR EGP BALAN 061.01988 44838376000015 65 - rue des Sapinettes 01360 RHONE-ALPES 814600 2096400 2561Z Traitement et revêtement des métaux NA NA 45.8339561598, 5.09913900724 5.099139 45.83396 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR ARKEMA 061.12329 31963279000345 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2016Z Fabrication de matières plastiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR KEM ONE BALAN 061.01989 53869504000039 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2014Z Fabrication d’autres produits chimiques organiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR ARKEMA 061.12329 31963279000345 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2016Z Fabrication de matières plastiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR ARKEMA 061.12329 31963279000345 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2016Z Fabrication de matières plastiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain balan 1027 1 FR ARKEMA 061.12329 31963279000345 258 route de Saint Maurice de Gourdans 01360 RHONE-ALPES 814731 2097896 2016Z Fabrication de matières plastiques de base 4.(a).(viii) matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) 45.8473656184, 5.10150104057 5.101501 45.84737 ain 3.29 villemotier 1445 1 FR
ain bellegardesurvalserine 1033 2 FR Usine d’incinération d’ordures ménagères 061.02002 25740162000030 ZI d’Arlod 5 chemin du Tapey 01200 RHONE-ALPES 869803 2129343 3821Z Traitement et élimination des déchets non dangereux 5.(b) Installations destinées à l’incinération des déchets non dangereux dans le cadre de la directive 2000/76/CE du Parlement européen et du Conseil du 4 décembre 2000 sur l’incinération des déchets d’une capacité de 3 tonnes par heure 46.1103602153, 5.82776664722 5.827767 46.11036 ain 3.29 montanges 1257 2 FR

Table 2 :Etablissement Polluant avec Potentiel Radon On a ensuite utilisé cette table ( colonne coordonnées sachant que la longitude et la latitude sont séparé par une virgule) pour crée un spatial polygon data frame pour modéliser nos points dans la carte # Conception des cartes de France en fonctions de plusieurs attributs
Concernant les données geographiques nous babons importé un fichier qu’on trouvé sur GiTHUB qui est un Spatial Polygon Data Frame , afin d’avoir les coordonnées des polygones selon les departements a partir des codes INSEE des communes , nous avons par la suite fait une jointure entre les données geographique et le potentiel radon ainsi que l’incidence de la maladie X .

On a réalisé une première carte qui représente le potentiel Radon dans chaque département

Carte 1Potentiel Radon par Departement La seconde carte représente le ratio de l’évènement de la maladie X selon les Régions

(carte2)
knitr::opts_chunk$set(echo = TRUE)

Carte 2Incidence Maladie par Departement La troisième carte représente la carte de France par département avec des Marqueurs qui font référence à tous les établissements

(carte3)
knitr::opts_chunk$set(echo = TRUE)

Carte 3Etablissement Polluants

Réalisation d’histogramme

Nous avons choisis pour analysé les données de representé un histogramme interactif selon le departement : on peux choisir l’axe des X de notre Histogramme selon : Nom etablissement , Libellé APE ou code EPRTR , en y ajoutant sur Shiny un tableau pour bien lire les données
A caption

A caption

Description de l’application shiny

L’utilisations de l’application shiny nous a permis d’avoir une seule carte interactive avec laquelle on peut changer à chaque fois l’attribut que l’on voudra étudier et représenter.

Mais aussi réaliser plusieurs histogrammes et cela en choisissant à chaque fois ce qu’on veut représenter, donc changer le libellé des axis selon le Libellé APE, Libelle Eprtr, Nom établissement, Code Eprtr

Nous avons choisi de sélectionne nos valeurs par départements on a opté pour cela, car pour région il y’a énormément de valeurs et commune ou contrairement on a peu de valeurs. Donc choisir les valeurs de nos tables par département et mettre les communes en variable de couleurs étais le choix optimal que nous avons jugé objectif et satisfaisant pour notre application. Vous Pouvez trouver l’application Shiny dans le fichier AppShiny

## PhantomJS not found. You can install it with webshot::install_phantomjs(). If it is installed, please make sure the phantomjs executable can be found via the PATH variable.

Shiny applications not supported in static R Markdown documents
#Etude de l’Autocorrelation Afin d’etudier l’autocorrelation de l’incidence de la maladie X nous avons dabord construit un voisinage de type queen
ensuite nous avons Crée une matrice de contiguité standardisée (type queen) pour pouvoir etudier l’autocorrelation spatiale par le test de Morane

## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 96 
## Number of nonzero links: 476 
## Percentage nonzero weights: 5.164931 
## Average number of links: 4.958333 
## 
## Weights style: W 
## Weights constants summary:
##    n   nn S0       S1       S2
## W 96 9216 96 44.29206 391.9874

Tests d’Autocorrelation Spatial

Nous avons effectué le test de Morane , avec le bootstrap , nous avons obtenu une p.value assez ellevé et un indice de Morane Negatif ce qui explique donc l’absence d’autocorrelation spatiale pour l’incidance de la maladie X en fonction des departements

## 
##  Moran I test under normality
## 
## data:  ratioEvenement$ratio  
## weights: matrice_conguiteQ    
## 
## Moran I statistic standard deviate = 0.14069, p-value = 0.8881
## alternative hypothesis: two.sided
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      -0.001007117      -0.010526316       0.004578167

# Tests de gary Meme resultats , qui expliquee l’absence d’autocorrelation spatial par rapport a l’incidence de la maladie X

## 
##  Geary C test under randomisation
## 
## data:  ratioEvenement$ratio 
## weights: matrice_conguiteQ 
## 
## Geary C statistic standard deviate = -0.58119, p-value = 0.5611
## alternative hypothesis: two.sided
## sample estimates:
## Geary C statistic       Expectation          Variance 
##       1.041589500       1.000000000       0.005120805

Autocorrélogramme

Nous avons ensuite effectué un autocorrelogramee pour confirmer l’Hypotese que l’incidence de la maladie est independante de ca localisation geographique #Test de Stone : Nous avons appliquer le test de Stone sur l’incidance de la maladie X par rapport au potentiel radon par departement la p.value est toujours tres elevé ce qui montre l’absence d’autocorrelation spatiale entre ces 2 attributs , Voici Un Exemple pour Paris

## Stone's Test for raised incidence around locations 
## 
##  Type of boots.: parametric 
##  Model used when sampling: Poisson 
##  Number of simulations: 99 
##  Statistic:  1 
##  p-value :  1

Merci vous Pouvez trouvez l’application Shiny sur le fichier Appli Shiny